Skip to main content
Minh Nong
💬
0 discussions

Sự cố khi cài đặt user mới cho production

1. Đối tượng đọc

  • Stage Owner
  • Customer Success Engineer
  • Customer Success Specialist

2. Nội dung chi tiết

2.1. Nguyên nhân gây ra sự cố

  • Làm task cài đặt user gadmin cho server, nghĩ đơn giản chỉ là thêm ssh key cho user
  • Thao tác liên quan đến production server mà không có người theo dõi chéo, không hỏi buddy
  • Không kiểm tra kỹ các thông tin của server trước khi cài đặt
  • Các file quan trọng của root chuyển sang cho gadmin mà không phát hiện dẫn đến 1 số service ngừng hoạt động

2.2. Hậu quả và bài học

Những sự cố trên môi trường production rất nguy hiểm vì nó có thể ảnh hưởng trực tiếp tới business của công ty và khách hàng nên trước khi làm nhiệm vụ gì ở production trước tiên phải hiểu rõ, phải hỏi buddy, và phải có người theo dõi chéo nhằm mục đích giảm thiểu tối đa rủi ro để bảo vệ hệ thống hoạt động ổn định

Trước khi thao tác trên production nên có những checklist cần thiết cho bản thân như

  • Đã được training
  • Đã hiểu rõ task
  • Có người theo dõi chéo
  • Có phải ngày 1 hoặc 15 hay không ( ngày deploy cho môi trường production )

3. Kết Luận

Tài liệu này nói về 1 lần gây ra sự cố của 1 customer success engineer, qua đó ta thấy dù task như thế nào thì sai sót của con người là không tránh khỏi, và có thể gây ra hậu quả không lường trước được, nên mọi thao tác liên quan đến môi trường production bắt buộc phải kĩ lưỡng và đúng quy tắc